// Editor: myBigPro9/src001/main/java/org/csu/mybigpro/service/WebScrapingService.java
// Action: Create
package org.csu.mybigpro.service;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.springframework.stereotype.Service;

@Service
public class WebScrapingService {

    /**
     * 使用Jsoup从给定的URL抓取网页的纯文本内容
     * @param url 网页链接
     * @return 网页的纯文本
     * @throws Exception 抓取失败时抛出异常
     */
    public String scrapeTextFromUrl(String url) throws Exception {
        // 设置一个合理的用户代理和超时时间，模拟浏览器行为
        Document doc = Jsoup.connect(url)
                .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
                .timeout(10000) // 10秒超时
                .get();
        return doc.body().text();
    }
}